In [1]:
words = [
'look', 'into', 'my', 'eyes', 'look', 'into', 'my', 'eyes',
'the', 'eyes', 'the', 'eyes', 'the', 'eyes', 'not', 'around', 'the',
'eyes', "don't", 'look', 'around', 'the', 'eyes', 'look', 'into',
'my', 'eyes', "you're", 'under'
]
In [2]:
from collections import Counter
word_counts = Counter(words)
# 出现频率最高的3个单词
top_three = word_counts.most_common(3)
print(top_three)
讨论
作为输入, Counter
对象可以接受任意的 hashable
序列对象。 在底层实现上,一个 Counter
对象就是一个字典,将元素映射到它出现的次数上。比如:
In [3]:
word_counts["not"]
Out[3]:
In [4]:
word_counts["eyes"]
Out[4]:
如果你想手动增加计数,可以简单的用加法:
In [5]:
morewords = ['why','are','you','not','looking','in','my','eyes']
for word in morewords:
word_counts[word] += 1
In [6]:
word_counts["eyes"]
Out[6]:
或者你可以使用 update()
方法:
In [7]:
word_counts.update(morewords)
Counter
实例一个鲜为人知的特性是它们可以很容易的跟数学运算操作相结合。比如:
In [8]:
a = Counter(words)
a
Out[8]:
In [9]:
b = Counter(morewords)
b
Out[9]:
In [10]:
c = a + b
c
Out[10]:
In [11]:
d = a - b
d
Out[11]:
毫无疑问, Counter
对象在几乎所有需要制表或者计数数据的场合是非常有用的工具。 在解决这类问题的时候你应该优先选择它,而不是手动的利用字典去实现。